句法|商贩_Python爬虫简单实例——豆瓣电影评论数据的爬取

作者：qwj6069649 | 来源：互联网 | 2023-07-30 12:42

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python爬虫简单实例——豆瓣电影评论数据的爬取相关的知识，希望对你有一定的参考价值。

一、前言

豆瓣网是一家基于用户对于图书、电影和音乐兴趣而搭建的社交网站&＃xff0c;由杨勃创立于2005年。豆瓣网推崇算法&＃xff0c;根据用户对音乐、书、电影等进行的操作&＃xff0c;自动给出同类趣味和友邻推荐。基于记录和分享而生成的“用户价值”是豆瓣的核心竞争力。豆瓣网的一大特色是不做运营&＃xff0c;用户自发组建的小组是豆瓣特有的文化和社区产物。

爬取豆瓣网上面的电影评论数据具有很重要的作用。电影评论数据是NLP&＃xff08;自然语言处理&＃xff09;重要的数据。通过电影评论数据集可以进一步做中文分词、命名实体识别、关键词提取、句法分析、文本向量化、情感分析、舆情分析等进一步的数据处理和应用。既然数据这么重要&＃xff0c;废话不多说&＃xff0c;紧接着就开始电影数据的爬取。

二、代码及结果分析展示

这次选取的实例电影是《我不是药神》&＃xff1a;它是由文牧野执导&＃xff0c;宁浩、徐峥共同监制的剧情片&＃xff0c;徐峥、周一围、王传君、谭卓、章宇、杨新鸣等主演。该片于2018年7月5日在中国上映。影片讲述了神油店老板程勇从一个交不起房租的男性保健品商贩&＃xff0c;一跃成为印度仿制药“格列宁”独家代理商的故事&＃xff0c;这里先放一张海报。

紧接着查看《我不是药神》的豆瓣评论。还是老样子F12—>NetWork—>XHR&＃xff0c;我们发现这里面竟然没有xhr文件&＃xff0c;谢天谢地&＃xff0c;这说明这些评论数据都不是通过Ajax来传送数据的。这样工作就简单太多了---------直接通过寻找URL的规律爬取每页的数据并保存。

那就直接来吧&＃xff1a;

https://movie.douban.com/subject/26752088/comments?status&＃61;P

https://movie.douban.com/subject/26752088/comments&＃xff1f;start&＃61;20&limit&＃61;20&sort&＃61;new_score&status&＃61;P

https://movie.douban.com/subject/26752088/comments?start&＃61;40&limit&＃61;20&sort&＃61;new_score&status&＃61;P

https://movie.douban.com/subject/26752088/comments?start&＃61;60&limit&＃61;20&sort&＃61;new_score&status&＃61;P

https://movie.douban.com/subject/26752088/comments?start&＃61;n*20&limit&＃61;20&sort&＃61;new_score&status&＃61;P

这样规律就找到了&＃xff0c;只需要通过一个变量改变start的值就可以。

接下来直接给出代码&＃xff1a;

# -*-coding:utf-8-*- import urllib.request from bs4 import BeautifulSoup import random import time import jieba import wordcloud def gethtml(url): """获取url页面""" user_agents &＃61; [ &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60&＃39;, &＃39;Opera/8.0 (Windows NT 5.1; U; en)&＃39;, &＃39;Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50&＃39;, &＃39;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50&＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0&＃39;, &＃39;Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10&＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 &＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36&＃39;, &＃39;Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11&＃39;, &＃39;Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16&＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36&＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko&＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11&＃39;, &＃39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER&＃39;, &＃39;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)&＃39;, &＃39;Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0&＃39;, &＃39;Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) &＃39;, "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)", "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)", "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)", "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)", "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)", "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527&＃43; (KHTML, like Gecko, Safari/419.3) Arora/0.6", "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0", "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5", "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20", "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52" ]

headers &＃61; &＃39;COOKIE&＃39;: 你的COOKIE, &＃39;User-Agent&＃39;: str(random.choice(user_agents)), &＃39;Referer&＃39;: &＃39;https: // movie.douban.com / subject / 26752088 / comments?status &＃61; P&＃39;, &＃39;Connection&＃39;: &＃39;keep-alive&＃39; req &＃61; urllib.request.Request(url,headers&＃61;headers) req &＃61; urllib.request.urlopen(req) content &＃61; req.read().decode(&＃39;utf-8&＃39;) return content def getComment(url):

"""解析HTML页面""" html &＃61; getHtml(url) soupComment &＃61; BeautifulSoup(html, &＃39;html.parser&＃39;) comments &＃61; soupComment.findAll(&＃39;span&＃39;, &＃39;short&＃39;) onePageComments &＃61; [] for comment in comments: # print(comment.getText()&＃43;&＃39;\\n&＃39;) onePageComments.append(comment.getText()&＃43;&＃39;\\n&＃39;) return onePageComments

def wordAnalysis(): f &＃61; open(&＃39; C:/Users/Administrator/PycharmProjects/practice1/我不是药神.txt&＃39;,&＃39;r&＃39;,encoding &＃61; &＃39;utf-8&＃39;) content &＃61; f.read() f.close() ls &＃61; jieba.lcut(content) txt &＃61; &＃39; &＃39;.join(ls) w &＃61; wordcloud.WordCloud(font_path&＃61;&＃39;c:\\windows\\Fonts\\STZHONGS.TTF&＃39;, width&＃61;1000, height&＃61;700, background_color&＃61;&＃39;white&＃39;) w.generate(txt) w.to_file(&＃39;Movie.png&＃39;)

if __name__ &＃61;&＃61; &＃39;__main__&＃39;: f &＃61; open(&＃39;我不是药神.txt&＃39;, &＃39;a&＃39;, encoding&＃61;&＃39;utf-8&＃39;) j &＃61; 0 for page in range(15): # 豆瓣爬取多页评论需要验证。 url &＃61; &＃39;https://movie.douban.com/subject/26752088/comments?start&＃61;&＃39; &＃43; str(20*page) &＃43; &＃39;&limit&＃61;20&sort&＃61;new_score&status&＃61;P&＃39; print(&＃39;第%s页的评论:&＃39; % (page)) print(url &＃43; &＃39;\\n&＃39;) for i in getComment(url): f.write(str(j)) f.write(i) print(j,i) j &＃43;&＃61; 1 time.sleep(10) print(&＃39;\\n&＃39;) wordAnalysis()

词云结果如下图所示&＃xff1a;

在代码里面本文设置了UserAgent池来防止反爬虫&＃xff0c;其中需要重点强调的是&＃xff1a;注意啦、注意啦、注意啦&＃xff0c;注意啦、注意啦、注意啦&＃xff1a;

如果在运行代码时遇到这样一个问题&＃xff1a;

不要着急&＃xff0c;以上问题可能有两种可能&＃xff1a;

1&＃xff09; 你可能遭遇反爬虫&＃xff1a;

原因如下:

如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.

有些网站验证请求信息中的UserAgent(它的信息包括硬件平台、系统软件、应用软件和用户个人偏好),如果UserAgent存在异常或者是不存在,那么这次请求将会被拒绝(如上错误信息所示)(当然现在很多网站的反爬虫不单单是通过UserAgent进行验证非正常访问&＃xff0c;还会通过COOKIE、爬虫频率等很多方法去判断验证)

解决办法&＃xff1a;

可以通过建立User-Agent池和IP池来伪装自己。

2&＃xff09;你没有登录

有些网站必须是注册、登录&＃xff0c;然后获取COOKIE。进而爬取。豆瓣网就是一个很典型的例子&＃xff0c;在没有登录的时候&＃xff0c;是可以10页的评论数据。一旦超过10页&＃xff0c;并且检测到用户没有登录信息&＃xff0c;立即终止爬虫的进行。所以&＃xff0c;在爬取豆瓣电影评论的时候&＃xff0c;一定要记得注册账号并登录哦。

三、总结

这篇文章是豆瓣电影评论数据的爬取&＃xff0c;除了爬取评论数据&＃xff0c;还可以爬取评论用户、该用户是否看过电影、评论时间、五星评分等信息。就这篇文章而言&＃xff0c;豆瓣数据的爬取相对较为简单&＃xff0c;其中介绍了当代码运行时出现了HTTPError: HTTP Error 403: Forbid这样的问题该怎么解决-----------“千万不要忘了登录账号”。这篇文章就到这里了&＃xff0c;欢迎大佬们多批评指正&＃xff0c;也欢迎大家积极评论多多交流。

在这里还是要推荐下我自己建的Python学习Q群:249029188&＃xff0c;群里都是学Python的&＃xff0c;如果你想学或者正在学习Python &＃xff0c;欢迎你加入&＃xff0c;大家都是软件开发党&＃xff0c;不定期分享干货&＃xff08;只有Python软件开发相关的&＃xff09;&＃xff0c;包括我自己整理的一份2021最新的Python进阶资料和零基础教学&＃xff0c;欢迎进阶中和对Python感兴趣的小伙伴加入&＃xff01;

推荐阅读

sum
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
tree
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
tree
Git 分布式版本控制系统：远程仓库的深入探讨

本文详细介绍了Git分布式版本控制系统中远程仓库的概念和操作方法。通过具体案例，帮助读者更好地理解和掌握如何高效管理代码库。 ... [详细]

蜡笔小新 2024-12-25 18:30:21
java
使用URLConnection进行网页抓取与解析

本文介绍了如何利用Java中的URLConnection类来实现基本的网络爬虫功能，包括向目标网站发送请求、接收HTML响应、解析HTML以提取所需信息，并处理可能存在的递归爬取需求。 ... [详细]

蜡笔小新 2024-12-18 19:40:22
java
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
java
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
replace
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
replace
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
replace
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
replace
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
default
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
default
通过类型和标签选择元素

本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]

蜡笔小新 2024-12-27 19:44:14
java
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
java
JSON 解析失败问题排查

在PHP后端开发中遇到一个难题：通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]

蜡笔小新 2024-12-21 18:39:23
export
MySQL Debug 模式的实现与应用

本文详细介绍了如何启用和使用 MySQL 的调试模式，包括编译选项、环境变量配置以及调试信息的解析。通过实际案例展示了如何利用调试模式解决客户端无法连接服务器的问题。 ... [详细]

蜡笔小新 2024-12-19 19:17:32

qwj6069649

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章